检索结果

Select

1. 基于专家特征的条件互信息多标记特征选择算法

程玉胜, 宋帆, 王一宾, 钱坤

《计算机应用》唯一官方网站 2020, 40 (2): 503-509. DOI: 10.11772/j.issn.1001-9081.2019091626

摘要（460）

HTML （0）

PDF （818KB）（284）

特征选择对于分类器的分类精度和泛化性能起重要作用。目前的多标记特征选择算法主要利用最大相关性最小冗余性准则在全部特征集中进行特征选择，没有考虑专家特征，因此多标记特征选择算法的运行时间较长、复杂度较高。实际上，在现实生活中专家依据几个或者多个关键特征就能够直接决定整体的预测方向。如果提取关注这些信息，必将减少特征选择的计算时间，甚至提升分类器性能。基于此，提出一种基于专家特征的条件互信息多标记特征选择算法。首先将专家特征与剩余的特征相联合，再利用条件互信息得出一个与标记集合相关性由强到弱的特征序列，最后通过划分子空间去除冗余性较大的特征。该算法在7个多标记数据集上进行了实验对比，结果表明该算法较其他特征选择算法有一定优势，统计假设检验与稳定性分析进一步证明了所提出算法的有效性和合理性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 融合萤火虫方法的多标签懒惰学习算法

程玉胜, 钱坤, 王一宾, 赵大卫

计算机应用 2019, 39 (5): 1305-1311. DOI: 10.11772/j.issn.1001-9081.2018109182

摘要（513）

PDF （1074KB）（307）

已有的多标签懒惰学习算法（IMLLA）在利用近邻标签时因仅考虑了近邻标签相关性信息，而忽略相似度的影响，这可能会使算法的鲁棒性有所降低。针对这个问题，引入萤火虫方法，将相似度信息与标签信息相结合，提出一种融合萤火虫方法的多标签懒惰学习算法（FF-MLLA）。首先，利用Minkowski距离来度量样本间相似度，从而找到近邻点；然后，结合标签近邻点和萤火虫方法对标签计数向量进行改进；最后，使用奇异值分解（SVD）与核极限学习机（ELM）进行线性分类。该算法同时考虑了标签信息与相似度信息从而提高了鲁棒性。实验结果表明，所提算法较其他的多标签学习算法有一定优势，并使用统计假设检验与稳定性分析进一步说明所提出算法的合理性与有效性。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于粗糙集的数据流多标记分布特征选择

程玉胜, 陈飞, 王一宾

计算机应用 2018, 38 (11): 3105-3111. DOI: 10.11772/j.issn.1001-9081.2018041275

摘要（477）

PDF （1135KB）（421）

针对传统特征选择算法无法处理流特征数据、冗余性计算复杂、对实例描述不够准确的问题，提出了基于粗糙集的数据流多标记分布特征选择算法。首先，将在线流特征选择框架引入多标记学习中；其次，用粗糙集中的依赖度替代原有的条件概率，仅仅利用数据自身的信息计算，使得数据流特征选择算法更加高效快捷；最后，由于在现实世界中，每个标记对实例的描述程度并不相同，为更加准确地描述实例，将传统的逻辑标记用标记分布的形式进行刻画。在多组数据集上的实验表明，所提算法能保留与标记空间有着较高相关性的特征，使得分类精度相较于未进行特征选择的有一定程度的提高。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于风险决策的文本语义分类算法

程玉胜, 梁辉, 王一宾, 黎康

计算机应用 2016, 36 (11): 2963-2968. DOI: 10.11772/j.issn.1001-9081.2016.11.2963

摘要（494）

PDF （967KB）（460）

传统的文本分类多以空间向量模型为基础，采用层次分类树模型进行统计分析，该模型多数没有结合特征项语义信息，因此可能产生大量频繁语义模式，增加了分类路径。结合基本显露模式（eEP）在分类上的良好区分特性和基于最小期望风险代价的决策粗糙集模型，提出了一种阈值优化的文本语义分类算法TSCTO：在获取文档特征项频率分布表之后，首先利用粗糙集联合决策分布密度矩阵，计算最小阈值，提取满足一定阈值的高频词；然后结合语义分析与逆向文档频率方法获取基于语义类内文档频率的高频词；采用eEP分类方法获得最简模式；最后利用相似性公式和《知网》提供的语义相关度，计算文本相似性得分，利用三支决策理论对阈值进行选择。实验结果表明，TSCTO算法在文本分类的性能上有一定提升。

参考文献 | 相关文章 | 多维度评价